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5 3 
(北京 信息 科技 大 学 计算 机 学 院 ， 北京 100192) 


摘 要 : 目前 比较 流行 的 中 文 分 词 方法 为 基于 统计 模型 的 机 器 学 习 方法 。 基 于 统计 的 方法 一 般 采 用 人 工 标注 的 句子 级 
的 标注 语 料 进行 训练 ， 但 是 这 种 方法 往往 忽略 了 已 有 的 经 过 多 年 积累 的 人 工 标注 的 词典 信息 。 这 些 信息 尤其 是 在 面向 
跨 领 域 时 ， 由 于 目标 领域 句子 级 别 的 标注 资源 稀少 ， 从 而 显得 更 加 珍贵 。 因 此 如 何 充 分 而 且 有 效 的 在 基于 统计 的 模型 
中 利用 词典 信息 ， 是 一 个 非常 值得 关注 的 工作 。 最 近 已 有 部 分 工作 对 它 进行 了 研究 ， 按 照 词典 信息 融入 方式 大 致 可 以 
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类 方法 进行 比较 ， 并 进一步 进行 结合 。 实 验 表 明 ， 这 两 类 方法 结合 之 后 ， 词 典 信 息 可 以 得 到 更 充分 的 利用 ， 最 终 无 论 
是 在 同 领域 测试 和 还 是 在 跨 领 域 测 试 上 都 取得 了 更 优 的 性 能 。 

关键 词 : 中 文 分 词 ; 条 件 随机 场 ; 柱 搜索 ; 领域 自 适 应 
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Comparison of methods for integrating lexicon information in Chinese word segmentation 
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Abstract: Chinese word segmentation is a fundamental task in Chinese natural language processing. Currently the mainstream 
methods for Chinese word segmentation exploit statistical machine learning models. These methods usually require manual- 


annotated segmented sentences as training corpus, yet have neglected the annotated large-scale lexicon resources which have 


been built before, where these resources can be highly valuable when cross-domain evaluation is conducted, as the gold-standard 
sentence-level annotations arerare. Recently, the integration of lexicon formation into word segmentation models has gained 
increasing interest. As a whole, the integration methods can be classified into two categories: one being based on character- 
based models that cast word segmentation problem as sequence labeling, and the other being based on word-based models that 
use beam-search to decode. In this paper, we compare these two models, and combine them. Experimental results on benchmark 
data sets show that lexicon information can be more fully explored after combination, and finally the combined model can 
achieve better performances with both in- and cross-domain settings. 
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a 于 字 序 列 分 类 的 方法 将 中 文 分 词 转换 成 序列 标注 任务 ;将 句子 
m 中 的 每 一 个 字 用 BMES 四 个 类 型 的 标签 表示 , 其 中 B 表示 一 个 
中 文 和 其 他 字母 形式 的 语言 的 一 个 巨大 区 别 是 中 文 输入 的 。” 词 的 首 字 ，M 表示 一 个 词 的 中 间 字 ，E 表示 一 个 词 的 结尾 字 ， 


词 与 词 之 间 并 不 存在 显 式 的 词语 分 隔 符 ， 因 此 在 进行 中 文 自 然 fj S 表示 该 词 是 由 一 个 单一 的 字 组 成 。 通 过 这 样 的 转换 之 后 ， 
语言 处 理 时 ， 一 般 最 首要 的 任务 是 进行 中 文 分 词 。 当 分 词 完毕 。 便 可 以 采用 标注 的 条 件 随 机 场 模型 进行 训练 和 解码 ， 从 而 完成 


之 后 ， 中 文 自 然 语 言 处 理 的 各 项 分 析 以 及 应 用 便 可 以 像 其 他 语 ”中文 分 词 任务 。 

言 一 样 ， 用 一 套 统一 相似 的 框架 展开 。 中 文 分 词 的 研究 工作 已 由 于 在 基于 字 的 序列 标注 的 方法 中 ， 与 词 相关 的 特征 难以 

经 持续 了 很 长 的 时 间 ， 目 前 比较 流行 而 且 性 能 比较 好 的 方法 是 。 融入 ,所 以 后 续 有 人 提出 了 基于 词 的 方法 ,这 一 方法 在 解码 时 ， 

基于 统计 机 器 学 习 的 方法 。 对 下 一 个 字符 的 处 理 采 取 两 个 动作 ， 要 么 和 前 面 的 词 进行 拼接 
中 文 分 词 的 统计 模型 中 ， 主 流 的 方法 分 为 两 种 ， 一 种 是 基 合并 ， 要 么 自己 成 为 下 一 个 词 的 首 字 ， 这 样 解码 时 ， 模 型 便 能 


于 字 序 列 分 类 的 方法 53, 而 另 一 类 为 基于 词 的 搜索 算法 此 5]。 霸 知道 过 去 产生 了 哪些 具体 的 i 


， 从 而 这 些 词 也 可 以 作为 模型 


ull 
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录用 稿 D» 文 分 词 模型 词典 融入 方法 比较 
特征 。 由 于 每 个 字 都 面临 两 个 选择 ， 这 样 搜索 空间 随 着 处 理 流行 的 设置 是 采用 BMES 四 类 标记 的 方法 , 将 句子 中 每 个 字 根 
符 数 目的 增加 便 会 以 指数 级 别 增长 ， 因 此 这 种 方法 往往 采用 柱 ” 据 它 在 词 中 的 位 置 进行 分 类 : 其 中 B 表示 一 个 词 的 开始 字符 ， 
搜索 的 算法 来 解码 。 M 表示 一 个 词 中 间 位 置 的 字符 ，E 表示 一 个 词 的 结尾 字符 而 S 
上 面 两 种 典型 的 方法 都 是 利用 句子 级 别 的 分 词 信息 进行 模 表示 一 个 词 由 独立 的 一 个 字 构 成 。 
型 训练 ， 往 往 忽略 了 过 去 长 期 积累 的 词典 资源 ， 而 且 另 一 方面 CRF 是 条 件 随 机 场 (Conditional Random Field) 的 简称 , 它 是 
词典 的 标注 实际 上 要 比 句子 级 分 词 的 标注 要 容易 很 多 。 如 何在 前 最 主流 的 序列 标注 算法 ， 因 为 这 一 方法 在 序列 标注 问题 上 
基于 统计 的 中 文 分 词 模型 中 充分 的 利用 词典 资源 也 是 非常 重要 ”能 取得 领先 的 效果 。 对 于 给 定 的 一 个 句子 X=c1.…cn 及 其 一 个 分 
的 研究 内 容 。 显 然 ， 上 面 两 种 典型 的 方法 ， 由 于 模型 上 的 显著 词 结果 为 YSyi o Koo ÓAcBoxcES, 
差异 ， 它 们 融入 词典 的 方式 肯定 是 不 一 样 的 。 其 中 ， 张 梅山 等 y; e(B.M,E, Su &isn), Ws] EUH F2 SERE 》 的 分 数 ， 
人 在 2011 年 提出 了 一 种 针对 序列 标注 模型 的 词典 融入 方法 [; 这 一 分 数 实际 上 也 是 一 个 概率 值 : 
ppm a a ead pon- 击 
最 近 形 成 的 一 个 词 是 否 在 词典 中 即 可 ， 这 一 方法 也 被 Zhang 等 Zx) iz 
人 于 2014 4E i FH E — 43 Va] ie] PE TE ER C BE ep UL 其 中 : Zo) AEMH—ÁGBSNTS Oii yo) 为 特征 向 量 函数 ，W 
本 文 的 研究 目的 在 于 系统 的 比较 这 两 种 融入 词典 信息 的 方 为 特征 权重 向 量 。 
法 ， 探 索 它 们 的 差异 性 ， 并 进一步 将 这 两 种 方法 进行 结合 ， 观 模型 中 使 用 的 特征 主要 包括 字 的 一 元 、 二 元 和 三 元 特征 ， 
察 这 一 结合 能 否 带 来 更 好 的 效果 。 最 后 ， 本 文通 过 实验 对 这 两 以 及 字符 类 别 特征 , 具体 定义 可 以 参考 张 梅 山 等 人 2011 年 的 论 
种 方法 进行 了 对 比 ， 采 用 了 两 种 设置 ， 即 同一 领域 和 跨 领 域 。 文 ， 这 里 不 进行 详细 介绍 。 
结果 发 现 ， 基 于 词典 的 方法 不 仅 词典 融入 方式 更 简单 ， 而 且 还 2.2 词典 信息 的 融入 
能 带 来 更 好 的 效果 ; 当 两 种 方法 结合 之 后 ， 无 论 什么 设置 ， 都 统计 机 器 学 习 的 模型 中 , 实际 上 最 重要 的 部 分 是 特征 选择 ， 
能 得 到 最 好 的 效果 。 因为 这 类 方法 的 核心 是 学 习 特 征 在 打分 时 的 权重 ， 因 此 在 统计 
1 ”相关 工作 模型 中 融入 词典 信息 实际 上 就 转换 为 如 何 将 词典 相关 的 特征 加 
入 到 模型 中 。 这 里 本 文 直接 介绍 张 梅 山 等 人 2011 年 提出 的 一 系 
中 文 分 词 在 过 去 已 经 得 到 研究 者 大 量 的 研究 中。 最 开 ” 列 特征 。 
台 的 工作 主要 采用 基于 规则 的 方式 ， 以 及 采用 语言 模型 的 方法 在 介绍 具体 特征 之 前 ， 首 先 需要 定义 三 类 函数 。 对 于 给 定 
对 分 词 结果 进行 打分 。 最 近 几 年 ， 采 用 统计 机 器 学 习 的 方法 逐 句子 Y=clcn ， 以 及 词典 刀 ， 考 虑 其 中 的 第 /个 字符 
渐 取 得 了 领先 的 性 能 ， 这 一 方法 主要 包括 两 类 : 基于 字 的 序列 cj(1<j<n)， 定 义 如 下 三 个 函数 : 
标注 的 方法 和 基于 词 的 方法 。 这 两 类 方法 各 有 利 次 ， 孙 和 薇 答 在 fp(x,j,D)= maxl, 
2010 年 COLING 上 对 这 两 种 方法 进行 了 详细 的 比较 和 分 析 ， MLLUEIERIP 
然后 进一步 将 这 两 种 方法 进行 了 结合 00， 这 一 比较 融合 的 思想 j+l-1<n 
和 本 文 比较 相似 。 但 是 和 上 述 工作 的 主要 区 别 在 于 ， 本 文 主要 fu (x,j,D)= maxl, 
关注 词典 信息 的 充分 利用 ， 针 对 基于 词典 的 特征 提出 了 融合 ， W= ED 
进一步 特别 关注 了 词典 特征 在 跨 领 域 条 件 下 的 性 能 。 Sty j<s+l-1<n 
统计 模型 中 融入 词典 信息 最 早 是 由 赵 海 等 人 0 提出 的 ， 进 PEST 
一 步 张 梅 山 等 人 多 对 他 们 的 方法 进行 扩展 ， 使 得 这 一 方法 能 够 fg G5 j, D) 2 maxl, 
在 跨 领域 上 发 挥 作用 。 他 们 的 方法 主要 是 在 基于 字 的 序列 标注 pa jaa c; eD 
的 方法 上 展开 的 。 进 一 步 Zhang 等 人 "在 基于 词 的 方法 上 也 尝 1< 7 一 上 +1 
试 了 融入 词典 特征 。 本 文 的 思路 和 和 孙 薇 薇 等 人 思路 一 致 ， 但 是 ”其 中 : w 表示 一 个 词语 ;JfB(%,j,D) 表示 对 于 句子 x 在 位置 
主要 针对 的 是 对 于 词典 信息 的 融入 这 一 特性 进行 详细 对 比 以 及 根据 词典 D 采用 正 向 最 大 匹配 所 获得 的 词 的 长 度 ; fm j, D) 
进一步 的 结合 。 词 典 信息 的 融入 对 于 中 文 分 词 是 非常 重要 的 ， 表示 对 于 句子 x 在 j 前 面 的 某 个 位 置 根据 词典 DD 采用 正 向 最 
尤其 是 在 跨 领 域 方面 ， 训 练 语 料 不 足 的 情况 下 ， 这 一 信息 的 合 。” 大 匹配 所 获得 的 经 过 j 位 置 而 且 不 以 j 结尾 的 最 长 词 的 长 度 ; 
里 融入 能 带 来 更 好 的 性 能 。 fex jD) 表示 对 于 句子 x 在 位置 根 据 词 典 刀 采用 逆向 最 大 
" — 匹配 所 获得 的 词 的 长 度 。 
2 ”基于 字 的 序列 标注 模型 定义 了 上 述 的 三 个 函数 之 后 ， 便 可 以 利用 这 些 值 来 定义 词 
2.44 CRF 中 文 分 词 模型 8 特征 。 对 于 第 i 个 位 置 ,本文 使 用 的 特征 主要 包括 fp Gk. D), 


将 中 文 分 词 当 作 序 列 标注 这 一 问题 ， 最 早 是 
在 2003 年 提出 的 , 后 续 有 人 对 此 方法 进行 了 改进 。 


薛 念 文 等 人 


前 ， 比 较 


fu Gk, D) , 


fE(X,k,D) ,k=i, it 1, VAR TES. 3 


要 包含 二 元 和 


三 元 的 组 合 。 


T 
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录用 稿 站 雪 : 


党 一致:o) 由 于 特征 的 去 词汇 化 ， 这 两 个 模型 在 领域 切换 方面 可 
以 非常 灵活 ， 图 2 显示 了 这 两 个 模型 在 领域 切换 时 的 训练 和 和解 
3.1 基本 模型 介绍 码 模式 ， 用 户 只 需要 训练 一 个 模型 ， 在 跨 领 域 测试 时 ， 只 需 在 
基于 词 的 柱 搜索 算法 最 早 由 张 拓 和 Clark" 2007 年 提出 。 解码 时 将 目标 领域 的 词典 换 上 即 可 。 
来 ， 进 一 步 在 张 岳 和 Clark(2011) 呈 中 得 到 完善 。 它 又 通常 被 称 
为 基于 转移 的 模型 ， 这 一 模型 中 ， 其 核心 是 将 解码 转换 成 一 个 。 | 
动作 序列 ， 每 执行 一 个 动作 ， 则 解码 的 进程 又 称 为 状态 会 发 上 ARTPRTI SS 
改变 .具体 ,解码 过 程 中 的 每 个 状态 由 一 个 栈 和 一 个 队列 组 成 ， 
栈 中 存储 这 一 个 已 经 部 分 解码 的 中 文 词 序列 ， 而 队列 中 存储 的 
是 尚未 进行 处 理 字 序 列 ， 如 图 1 所 示 。 动 作 分 为 两 类 ， 一 类 是 
SEPARATE， 表 示 将 队列 中 的 第 一 个 字 移 入 栈 中 ， 作 为 下 一 个 
词 的 开始 ; 而 另 一 类 为 Append, 即将 队列 中 的 第 一 个 字 附加 到 


3 ”基于 词 的 柱 搜索 模型 


图 2 跨 领域 训练 与 解码 示意 图 


输出 h(x, gi(x), g2(x), ***, gx(x) ) 
栈 顶 的 那个 词 后 。 解 码 初始 时 ， 栈 为 空 而 队列 中 存储 句子 中 的 
所 有 字 ， 解 码 结束 时 ， 队 列 为 空 ， 栈 中 的 结果 即 为 最 终 的 分 词 — 
结果 。 (高 层 模型 ) 
zag W2 Wi Co Cı dias gi(x) gx) SEN gx(x) 
图 1 基于 词 的 柱 搜 索 模 型 中 定义 的 状态 示意 图 第 一 层 模型 
(底层 模型 ) 


上 述 算法 在 解码 时 ， 每 个 状态 都 能 变 为 两 个 状态 ， 因 此 在 
处 理 到 第 i 个 字符 时 ， 生 成 的 可 能 的 状态 个 数 为 2; ， 因 此 算法 
的 时 空 复杂 度 是 指数 级 别 增长 的 ， 为 了 克服 这 一 缺点 ， 该 方法 


图 3 基于 栈 的 模型 融合 框架 示意 图 


进一步 采用 了 柱 搜 索 算 法 ， 即 每 次 只 保留 分 数 最 高 的 固定 大 小 基于 字 的 序列 标注 模型 和 基于 词 的 柱 搜索 模型 的 不 同 点 主 
的 状态 数目 。 要 体现 在 模型 本 身上 ， 首 先是 具体 特征 不 一 样 ， 因 为 基于 字 的 


具体 分 数 的 计算 公式 比较 简单 ， 直 接 将 每 个 动作 所 产生 的 。 ”模型 无 法 直接 的 获取 词 ， 因 此 特征 的 定义 是 间接 的 反映 词典 中 
特征 累加 合并 ， 然 后 将 得 到 的 稀 琉 向 量 和 模型 参数 点 乘 即 可 : 的 词 信息 ;而 基于 词 的 方法 则 可 以 直接 对 比 词典 中 的 词 和 目前 
刚 产生 的 词 是 否 一 致 。 其 次 ， 特 征 训练 方式 不 一 样 ， 基 于 字 的 
方法 采用 的 条 件 随 机 场 ， 实 质 上 时 一 个 概率 图 模型 ， 而 基于 词 
其 中 : W 为 模型 参数 ，@(4i, 加 为 特征 抽取 函数 ， 有 具体 特征 的 ”的 方式 采用 平均 感知 机 ， 属 于 最 大 间隔 算 法 。 
定义 可 以 参考 张 后 和 Clark(2011) 钻 。 模 型 参数 训练 方法 采用 平 关于 这 两 个 模型 的 结合 ， 这 里 直接 采用 基于 栈 的 方式 进行 
均 感知 机 算法 ， 有 具体 细节 这 里 不 再 详细 介绍 。 合 ， 即 将 其 中 给 一 个 模型 的 结果 传送 给 第 二 个 模型 ， 作 为 特 
3.2 词典 信息 的 融入 F 即 可 ， 如 图 3 所 示 。 这 一 方式 已 经 广泛 的 应 用 于 模型 融合 上 


SCore(x,al,A ,an) = WS, Dla) 


M 
Ln 


ER 


在 基于 词 的 柱 搜索 模型 中 ， 对 于 词典 信息 相关 特征 的 融入  ” 面 ， 由 于 它 在 理论 上 显得 更 优雅 ， 而 且 也 能 带 来 更 好 的 性 能 。 
和 基于 字 的 方法 比较 起 来 ， 由 于 该 模型 能 直接 看 到 生成 的 词 的 。 具体 实现 上 ,这 里 将 基于 字 的 模型 的 结果 传递 给 基于 词 的 模型 ， 
言 息 ， 因 此 显得 方便 很 多 。 本 文 仿效 Zhang 等 人 (2014) 年 的 方 虽然 也 可 以 将 基于 词 的 模型 的 结果 传递 给 基于 字 的 模型 ,但 是 


x 


ik. ET SEPARATE 操作 时 ,判断 栈 项 刚 生成 的 词 是 否 在 词 
A D 中 出 现 ， 以 及 该 词 的 长 度 为 多 少 。 


4 ”模型 对 比 和 结合 


文通 过 初步 实验 发 现 ， 这 种 形式 的 结合 能 取得 更 好 的 性 能 。 


5 ”实验 


本 文 使 用 和 张 梅 山 等 人 (2011) 相 同 的 语 料 进 行 模型 训练 和 
基于 字 的 序列 标注 模型 和 基于 词 的 柱 搜索 模型 在 融入 词典 测试 ， 利 用 SIGHAN BAKEOFF 2005 中 的 PKU 训练 语 料 进 行 
特征 信息 方面 ， 存 在 着 很 大 的 相似 性 。a) 两 个 模型 提取 的 特征 。 ”训练 , 测试 时 包含 两 个 领域 , 其 中 一 个 为 PKU 领域 , 而 另 一 个 
都 是 和 其 中 具体 的 词 无 关 的 特征 ， 因 此 即便 词典 在 测试 阶段 更 。 数据 来 自 于 金融 领域 ， 主 要 是 为 了 测试 模型 在 本 领域 和 跨 领域 
换 之 后 ， 仍 然 能 够 使 用 jb) 匹 配 词 的 长 度 信息 实际 都 显 式 的 编码 时 的 性 能 。 通 用 词典 来 自 于 北京 大 学 中 国语 言 学 研究 中 心 公开 
在 模型 中 ， 这 一 直觉 和 传统 最 早 的 正 向 最 大 匹配 算法 的 直觉 非 ” 的 词典 !, 一 共 包 含 大 约 10 万 多 个 词 , 而 PKU 领域 词典 和 金融 


!http://ccl.pku.edu.cn/doubtfire/Course/Chinese9620Information9620Processing/Source Code/Chapter 8/Lexicon full 2000.zip 
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领域 词典 则 分 另 
行 抽取 和 标注 。 


本 文 使 用 ?Y 


EHZ) A 


LH 


率 (R) 和 


标 来 评价 分 词 模型 ， 其 中 最 
相同 领域 性 能 
首先 ， 本 文 观察 同一 领域 融入 词 


5.1 


Liz 


1 从 训练 语 料 中 构建 和 金融 相关 的 百度 百科 中 进 


F-measure 值 (F) 三 个 指 


要 的 是 F-measure 值 。 


言 息 后 的 性 能 ， 并 和 不 


使 用 词典 信息 的 模型 进行 对 比 ， 最 终结 果 如 表 1 Br. 
表 1 PKU 领域 分 词性 能 对 比 。 
模型 是 否 使 用 词 P R F 
94.3% 95.494 94.896 
基于 字 的 模型 加 
rig 96.6% 96.6% 96.696 
. - 词 94.7% 95.1% 94.996 
基于 词 的 模型 B 
+ 词典 97.2% 96.99 97.096 
- 词 95.29, 95.6% 95.496 
两 者 结合 
Fig] 97.6% 97.5% 97.596 


从 表 1 中 结果 可 以 看 出 ， 基 于 词 的 模型 和 基于 字 的 模型 在 
不 使 用 词典 信息 时 ， 两 者 性 能 相当 ; 但 是 在 使 用 词典 信息 后 ， 
基于 词 的 模型 性 能 要 比 基 于 字 的 模型 高 出 0.4%。 当 基 于 词 的 模 
型 和 基于 字 的 模型 结合 后 ， 无 论 是 在 使 用 词典 还 是 在 不 使 用 词 
的 情况 下 ， 都 取得 了 最 好 的 性 能 。 另 外 ， 使 用 词典 之 后 ， 三 
种 模型 的 分 词性 能 都 比 不 使 ) 增强 ， 这 也 表明 了 词典 
5 REUS RITE. 
5.2 ” 跨 领 域 性 能 
前 面 的 实验 比较 了 基于 字 的 模型 和 基于 词 的 模型 在 同 领域 
时 使 用 词典 和 不 使 用 词典 的 性 能 ， 同 时 给 出 了 这 两 种 模型 进行 
结合 后 的 性 能 。 这 里 ， 本 文 进一步 观察 在 跨 领域 的 情况 下 ， 最 
终 的 结果 是 否 和 同 领域 的 趋势 完全 吻合 。 

表 2 给 出 了 最 终 的 实验 结果 。 通 过 实验 结果 的 对 比 可 以 发 
现 ， 跨 领域 情况 下 的 确实 和 同 领域 的 趋势 完全 吻合 。 值 得 注意 
的 是 ， 这 一 部 分 实验 测试 时 ， 并 没有 重新 训练 模型 ， 最 大 的 改 
动 就 是 原 有 PKU 领域 的 词典 被 替换 成 了 金融 领域 的 词典 。 另 
外 ， 从 实验 结果 中 看 出 ， 通 过 融入 外 部 词典 信息 ， 跨 领域 的 性 
能 可 以 提升 接近 7%， 从 原 有 的 87% 左 右 提 升 到 了 94% 以 上 。 


1 am Lk 


词典 显 


M 


n 


X2 金融 领域 分 词性 能 对 比 

模型 是 否 使 用 词 P R F 

——' 84.0% 89.7% — 86.896 

Fi] 93.2% 93.5% 93.396 

—M - 词 84.8% 89.2% 87.096 

Fig 94.2% 93.496 93.8% 

€ - 词 85.2% 90.0% 87.696 
结合 

Fi] 94.9% 94.0% 94.496 


5.3 ”模型 对 比分 析 
前 面 从 实验 结果 中 可 以 发 现 模型 融合 能 来 更 好 的 效果 ， 这 
步 通过 对 比 这 两 个 模型 的 错误 分 布 ， 来 观察 这 两 个 模型 


里 进 


的 不 同 。 

图 4 给 出 了 融入 了 词典 信息 之 后 ， 基 于 字 的 模型 和 基于 词 
的 模型 在 同 领域 设置 和 跨 领 域 设置 下 的 错误 分 布 图 。 图 4 中 的 
错误 分 布 式 根据 单个 句子 的 性 能 来 计算 的 ， 其 中 横 坐 标 给 出 了 


基于 词 的 模型 的 性 能 ， 而 纵 坐 标 表 示 基 于 字 的 模型 的 性 能 ， 
中 的 每 个 散 点 代表 一 个 句子 。 观 察 图 4， 可 以 发 现 两 个 子 图 中 
的 散 点 分 布 非常 分 散 ， 都 不 在 一 条 直线 上 ， 这 表明 了 两 则 的 错 


误 分 布 对 比 是 杂乱 无 章 的 ， 从 而 表明 了 这 两 个 模型 的 差异 性 。 


0.9 


0.85 


0.8 


类 主流 的 分 词 模型 在 融入 词典 信息 的 方式 上 进行 
1 进行 了 对 比 和 结合 。 本 文 不 仅 在 模型 建立 的 角度 对 
两 者 进行 了 详细 分 析 和 比较 ， 指 出 了 两 种 模型 在 利用 词典 信息 
上 的 相同 点 和 不 同 点 ， 而 且 也 从 实验 上 对 两 个 模型 的 错误 分 布 
进行 了 分 析 。 分 析 结果 表明 两 类 模型 虽然 在 词典 融入 方式 上 比 
该 相近 ， 但 是 也 存在 一 定 的 差异 性 ， 因 此 这 也 表明 模型 融合 会 
来 进一步 的 性 能 提升 。 本 文通 过 基于 栈 的 融合 方式 将 两 个 模 
型 进行 了 结合 ， 而 且 最 终 实 验 结果 表明 两 中 方法 的 结合 能 够 更 
有 效 的 提升 模型 的 最 终 性 能 。 

本 文 的 观点 进一步 验证 了 词典 的 信息 对 领域 自 适 应 是 非常 
有 效 的 , 但 是 实际 上 词典 的 获取 还 是 存在 一 定 难 度 的 ， 虽然 过 
去 已 经 有 了 相当 的 积累 。 下 一 步 工 作 集 中 在 如 何 自 动 的 获取 某 
领域 的 高 质量 词 
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